智能论文笔记

由于标记数据稀缺，提高概括是音频分类中的主要挑战。自我监督的学习（SSL）方法通过利用未标记的数据来学习下游分类任务的有用功能来解决这一点。在这项工作中，我们提出了一个增强的对比SSL框架，以从未标记数据学习不变的表示。我们的方法将各种扰动应用于未标记的输入数据，并利用对比学学习，以便在这种扰动中学习鲁棒性。Audioset和Desed数据集上的实验结果表明，我们的框架显着优于最先进的SSL和Sound / Event分类任务的监督学习方法。

translated by 谷歌翻译

近年来，基于深度学习的语言增强表现出前所未有的性能。最受欢迎的单声道语音增强框架是端到端网络将嘈杂的混合物映射到清洁语音的估计。随着计算能力的增长和多通道麦克风录制的可用性，目前的作用旨在将空间统计信息与光谱信息一起融合以提高性能。尽管Mono输出的增强性能提高，但空间图像保存和主观评估在文献中没有大量关注。本文提出了一种用于语音增强的新颖立体感知框架，即，基于深度学习的语音增强的训练损失，以在增强立体声混合物的同时保留空间图像。所提出的框架是独立的模型，因此它可以应用于任何基于深度学习的架构。我们通过聆听测试提供对训练有素的模型的广泛目标和主观评估。我们表明，通过规范进行图像保存损失，整体性能得到改善，并且演讲的立体方面更好地保存。

translated by 谷歌翻译

Training Robust Zero-Shot Voice Conversion Models with Self-supervised Features

Trung Dang , Dung Tran , Peter Chin , Kazuhito Koishida

分类：机器学习

2021-12-08

无监督的零射声语音转换（VC）旨在修改话语的扬声器特性，以匹配看不见的目标扬声器，而无需依赖并行培训数据。最近，已经显示了语音表示的自我监督学习在不使用转录物的情况下产生有用的语言单元，这可以直接传递给VC模型。在本文中，我们展示了通过使用长度重采样解码器来实现高质量的音频样本，这使得VC模型能够与不同的语言特征提取器和声码器一起工作，而无需它们以相同的序列长度运行。我们表明，我们的方法可以胜过VCTK数据集的许多基线。在不修改架构的情况下，我们进一步展示了a）使用来自同一扬声器的不同音频段，b）添加循环一致性损失，并且c）添加扬声器分类损失可以有助于学习更好的扬声器嵌入。我们的模型使用这些技术训练了Libritts，实现了最佳性能，产生了音频样本对目标扬声器的声音，同时保留了在字符错误率方面与实际人类话语相当的语言内容。

translated by 谷歌翻译